\subsection{频率分布}\label{subsec:16-5}
\begin{enhancedline}


为了了解中学生的身体发育情况，对某中学同年龄的 $60$ 名女学生的身高进行了测量，结果如下（单位：厘米）：
\begin{data}
    \begin{datatblr}{}
        167 & 154 & 159 & 166 & 169 & 159 & 156 & 166 & 162 & 158 \\
        159 & 156 & 166 & 160 & 164 & 160 & 157 & 156 & 157 & 161 \\
        158 & 158 & 153 & 158 & 164 & 158 & 163 & 158 & 153 & 157 \\
        162 & 162 & 159 & 154 & 165 & 166 & 157 & 151 & 146 & 151 \\
        158 & 160 & 165 & 158 & 163 & 163 & 162 & 161 & 154 & 165 \\
        162 & 162 & 159 & 157 & 159 & 149 & 164 & 168 & 159 & 153
    \end{datatblr}
\end{data}

我们知道，这组数据的平均数，反映了这些学生的平均身高。但是，有时只知道这一点还不够，
还希望知道身高在那个小范围内的学生多，在哪个小范围内的学生少，
也就是希望知道这 $60$ 名女学生的身高数据在各个小范围内所占的比例大小。
为此，需要对这组数据进行适当整理。整理时，可以按照下面的步骤进行：

(1) 计算最大值与最小值的差。

在上面的数据中，最大值是 $169$，最小值是 $146$， 它们的差是
$$ 169 - 146 = 23 \; (\limi) \juhao $$

算出了最大值与最小值的差，就知道这组数据变动的范围有多大。

(2) 决定组距与组数。

将一批数据分组，一般数据越多，分的组数也越多。
当数据在 $100$ 个以内时，按照数据的多少，常分成 $5 \dao 12$ 组。

组距是指每个小组的两个端点之间的距离。
在本例中，如果取组距为 $3$ 厘米，那么由于在这批数据中，
$$ \dfrac{\text{最大值} - \text{最小值}}{\text{组距}} = \dfrac{23}{3} = 7\exdfrac{2}{3} \douhao $$
得将数据分成 $8$ 组；如果取组距为 $2$ 厘米，那么由于 $\dfrac{23}{2} = 11\exdfrac{1}{2}$，
得分成 $12$ 组。分成 $8$ 组更合适些。于是取定组距为 $3$ 厘米，组数为 $8$。

(3) 决定分点。

将数据按照 $3$ 厘米的组距分组时，可以分成以下 $8$ 组：
\begin{data}
    \begin{datatblr}{}
        146 \dao 149 \douhao & 149 \dao 152 \douhao & 152 \dao 155 \douhao & 155 \dao 158 \douhao \\
        158 \dao 161 \douhao & 161 \dao 164 \douhao & 164 \dao 167 \douhao & 167 \dao 170 \juhao
    \end{datatblr}
\end{data}

这时我们看到，有些数据（例如 $149$， $158$， $167$） 本身就是分点，不好决定它们究竟应该属于哪一组。
为了避免出现这种情况，可以使分点比数据多一位小数，并且把第 $1$ 组的起点稍微减小一点。
例如，可以将第 $1$ 组的起点定为 $145.5$， 这样，所分的 $8$ 个小组是：
\begin{data}
    \begin{datatblr}{}
        145.5 \dao 148.5 \douhao & 148.5 \dao 151.5 \douhao & 151.5 \dao 154.5 \douhao & 154.5 \dao 157.5 \douhao \\
        157.5 \dao 160.5 \douhao & 160.5 \dao 163.5 \douhao & 163.5 \dao 166.5 \douhao & 166.5 \dao 169.5 \juhao
    \end{datatblr}
\end{data}

(4) 列频率分布表。

如表 \ref{tab:16-5} 的第 1 列、第 2 列所示，用选举时唱票的方法，对落在各个小组内的数据进行累计。
然后，数出落在各个小组内的数据的个数（叫做\zhongdian{频数}），并填入表 \ref{tab:16-5} 中的第 3 列。

\begin{table}[htbp]
    \centering
    \caption{频率分布表}\label{tab:16-5}
    \begin{statisticstblr}{}
        分组            & 频数累计      & 频数 & 频率 \\
        145.5 \dao 148.5 & \za            & 1  & 0.017\\
        148.5 \dao 151.5 & \zc            & 3  & 0.050 \\
        151.5 \dao 154.5 & \ze\za         & 6  & 0.100 \\
        154.5 \dao 157.5 & \ze\zc         & 8  & 0.133 \\
        157.5 \dao 160.5 & \ze\ze\ze\zc   & 18 & 0.300 \\
        160.5 \dao 163.5 & \ze\ze\za      & 11 & 0.183 \\
        163.5 \dao 166.5 & \ze\ze         & 10 & 0.167 \\
        166.5 \dao 169.5 & \zc            & 3  & 0.050 \\
        \text{合计}      &                & 60 & 1.000
    \end{statisticstblr}
\end{table}

每一小组的频数与样本容量的比值叫做这一小组的\zhongdian{频率}。
例如，第 1 小组的频率是
$$ \dfrac{1}{60} \approx 0.017 \juhao $$

算出各个小组的频率，并填入表 \ref{tab:16-5} 的第 4 列。表 \ref{tab:16-5} 叫做\zhongdian{频率分布表}。
列出频率分布表以后，就知道这些数据在各个小组内所占的比例大小了。

(5) 绘频率分布直方图。

为了将频率分布表中的结果直观形象地表示出来，常绘出\zhongdian{频率分布直方图}。
对于本例，频率分布直方图如图 \ref{fig:16-2} 所示，其中横轴表示身高，纵轴表示频率与组距的比值。容易看出，
$$ \text{小长方形面积} = \text{组距} \times \dfrac{\text{频率}}{\text{组距}} = \text{频率} \douhao $$

\begin{figure}[htbp]
    \centering
    \input{../pic/czds4-ch16-2}
    \caption{}\label{fig:16-2}
\end{figure}

这就是说，各个小长方形的面积等于相应各组的频率。
这样，频率分布直方图就以图形面积的形式反映了数据落在各个小组内的频率的大小。
又在图 \ref{fig:16-2} 中，
\begin{align*}
    \text{小长方形高} &= \dfrac{\text{频率}}{\text{组距}} \\
                     &= \dfrac{1}{\text{组距} \times \text{样本容量}} \times \text{频数} \douhao
\end{align*}
因为组距与样本容量都是常数，$\dfrac{1}{\text{组距} \times \text{样本容量}}$ 也是常数，
所以小长方形的高与频数成正比。利用这个性质来确定各小长方形的高比较方便。
在本例中，如果用 $h$ 表示频数为 $1$ 的小长方形的高，那么频数为 $k$ 的小长方形的高就是 $kh$。
例如， $148.5 \dao 151.5$ 这个小组的频数是 $3$， 相应的小长方形的高就是 $3h$。

在频率分布直方图中，由于各小长方形的面积等于相应各组的频率，而各组频率的和等于 $1$，
因此各小长方形的面积的和等于 $1$。

知道了一个样本的频率分布以后，就可以对相应的总体分布作出估计。
在上面的例子中，样本数据落在 $157.5 \dao 160.5$ 厘米之间的频率是 0.3，
说明在每 $100$ 名该年龄的女学生中，约有 $30$ 人的身高在 $157.5 \dao 160.5$ 厘米之间。


\liti[0] 一个农科站为了考察某种大麦穗长的分布情况，在一块试验地里抽取了 $100$ 个穗，
量得长度如下（单位： 厘米）：
\begin{data}
    \begin{datatblr}{}
        6.5 & 6.4 & 6.7 & 5.8 & 5.9 & 5.9 & 5.2 & 4.0 & 5.4 & 4.6 \\
        5.8 & 5.5 & 6.0 & 6.5 & 5.1 & 6.5 & 5.3 & 5.9 & 5.5 & 5.8 \\
        6.2 & 5.4 & 5.0 & 5.0 & 6.8 & 6.0 & 5.0 & 5.7 & 6.0 & 5.5 \\
        6.8 & 6.0 & 6.3 & 5.5 & 5.0 & 6.3 & 5.2 & 6.0 & 7.0 & 6.4 \\
        6.4 & 5.8 & 5.9 & 5.7 & 6.8 & 6.6 & 6.0 & 6.4 & 5.7 & 7.4 \\
        6.0 & 5.4 & 6.5 & 6.0 & 6.8 & 5.8 & 6.3 & 6.0 & 6.3 & 5.6 \\
        5.3 & 6.4 & 5.7 & 6.7 & 6.2 & 5.6 & 6.0 & 6.7 & 6.7 & 6.0 \\
        5.5 & 6.2 & 6.1 & 5.3 & 6.2 & 6.8 & 6.6 & 4.7 & 5.7 & 5.7 \\
        5.8 & 5.3 & 7.0 & 6.0 & 6.0 & 5.9 & 5.4 & 6.0 & 5.2 & 6.0 \\
        6.3 & 5.7 & 6.8 & 6.1 & 4.5 & 5.6 & 6.3 & 6.0 & 5.8 & 6.3
    \end{datatblr}
\end{data}
列出样本的频率分布表，绘出频率分布直方图。

\jie (1) 计算最大值与最小值的差。

在样本数据中，最大值是 $7.4$， 最小值是 $4.0$， 它们的差是
$$ 7.4 - 4.0 = 3.4 \; (\limi) \juhao $$

(2) 决定组距与组数。

在本例中，最大值与最小值的差是 $3.4$ 厘米。
如果取组距为 $0.3$ 厘米，那么由于
$$ \dfrac{3.4}{0.3} = 11\exdfrac{1}{3} \douhao $$
得分成 $12$ 组，组数合适。于是取定组距为 $0.3$ 厘米，组数为 $12$。

(3) 决定分点。

使分点比数据多一位小数，并且把第 $1$ 小组的起点稍微减小一点，
那么，所分的 $12$ 个小组可以是：
\begin{data}
    $3.95 \dao 4.25$， $4.25 \dao 4.55$， \\
    $4.55 \dao 4.85$， $\cdots$， $7.25 \dao 7.55$。
\end{data}

(4) 列须率分布表。

\begin{table}[H]%[htbp]
    \centering
    \caption{频率分布表}\label{tab:16-6}
    \begin{statisticstblr}{}
        分组         & 频数累计             & 频数 & 频率 & 累积频率\footnotemark \\
        3.95 \dao 4.25 & \za                  & 1   & 0.01 & 0.01 \\
        4.25 \dao 4.55 & \za                  & 1   & 0.01 & 0.02 \\
        4.55 \dao 4.85 & \zb                  & 2   & 0.02 & 0.04 \\
        4.85 \dao 5.15 & \ze                  & 5   & 0.05 & 0.09 \\
        5.15 \dao 5.45 & \ze\ze\za            & 11  & 0.11 & 0.20 \\
        5.45 \dao 5.75 & \ze\ze\ze            & 15  & 0.15 & 0.35 \\
        5.75 \dao 6.05 & \ze\ze\ze\ze\ze\zc   & 28  & 0.28 & 0.63 \\
        6.05 \dao 6.35 & \ze\ze\zc            & 13  & 0.13 & 0.76 \\
        6.35 \dao 6.65 & \ze\ze\za            & 11  & 0.11 & 0.87 \\
        6.65 \dao 6.95 & \ze\ze               & 10  & 0.10 & 0.97 \\
        6.95 \dao 7.25 & \zb                  & 2   & 0.02 & 0.99 \\
        7.25 \dao 7.55 & \za                  & 1   & 0.01 & 1.00 \\
        \text{合计}     &                     & 100 & 1.00 &
    \end{statisticstblr}
\end{table}
\footnotetext{关于累积频率和图 \ref{fig:16-3} 的下图将在下一节作专门介绍。}

对各个小组作频数累计，然后数频数，算频率，列频率分布表。如表 \ref{tab:16-6} 所示。

(5) 绘频率分布直方图（如图 \ref{fig:16-3} 上图所示，绘图方法同上例）。

\begin{figure}[htbp]
    \centering
    \input{../pic/czds4-ch16-3-1}
    \input{../pic/czds4-ch16-3-2}
    \caption{}\label{fig:16-3}
\end{figure}

现在可以根据样本的频率分布来估计总体分布。
例如，从表 \ref{tab:16-6} 中看到，样本数据落在 $5.75 \dao 6.05$ 之间的频率是 0.28，
于是可以估计，在这块地里，长度在 $5.75 \dao 6.05$ 厘米之间的麦穗约占 $28\%$。
在用频率分布估计总体分布时，如果样本容量越大，这种估计也就越精确。


\lianxi
\begin{xiaotis}

\xiaoti{有一个容量为 $50$ 的样本，数据的分组以及各组的频数如下：\\
    \hspace*{4em}
    \begin{datatblr}{column{2}={rightsep=4em}}
        53.5 \dao 55.5 &  4 & 61.5 \dao 63.5 & 10 \\
        55.5 \dao 55.5 &  7 & 63.5 \dao 65.5 &  6 \\
        57.5 \dao 59.5 &  9 & 65.5 \dao 67.5 &  3 \\
        59.5 \dao 61.5 & 11 &                &
    \end{datatblr} \\
    列出样本的频率分布表，绘出频率分布直方图。
}


\xiaoti{已知一个样本：\\
    \hspace*{4em}
    \begin{datatblr}{}
        25 & 21 & 23 & 25 & 27 & 29 & 25 & 28 & 30 & 29 \\
        26 & 24 & 25 & 27 & 26 & 22 & 24 & 25 & 26 & 28
    \end{datatblr} \\
    填写下面的频率分布表：\\
    \hspace*{4em}\begin{statisticstblr}{colsep=2em}
        分组            & 频数累计  & 频数 & 频率 \\
        20.5 \dao 22.5 &            &    &      \\
        22.5 \dao 24.5 &            &    &      \\
        24.5 \dao 26.5 &            &    &      \\
        26.5 \dao 28.5 &            &    &      \\
        28.5 \dao 30.5 &            &    &      \\
        \text{合计}    &            &    &
    \end{statisticstblr}
}


\xiaoti{为了了解中学生的身体发育情况，对某一中学同年龄的 $50$ 名男学生的身高进行了测量，结果如下（单位：厘米）：\\
    \hspace*{4em}
    \begin{datatblr}{}
        175 & 168 & 170 & 176 & 167 & 181 & 162 & 173 & 171 & 177 \\
        179 & 172 & 165 & 157 & 172 & 173 & 166 & 177 & 169 & 181 \\
        160 & 163 & 166 & 177 & 175 & 174 & 173 & 174 & 171 & 171 \\
        158 & 170 & 165 & 175 & 165 & 174 & 169 & 163 & 166 & 166 \\
        174 & 172 & 166 & 172 & 167 & 172 & 175 & 161 & 173 & 167
    \end{datatblr} \\
    列出样本的频率分布表，绘出频率分布直方图。
}

\end{xiaotis}

\end{enhancedline}

